傅盛:人工智能的破局点是技术和产品结合【猎户星空发布小雅语音 OS】
今天,猎户星空联合喜马拉雅等发布首款全内容AI音箱——小雅AI 音箱。作为猎户星空AI生态链上的第一款产品,小雅音箱是一款技术和产品结合的智能硬件,其背后的核心是猎户星空所提供的语音交互系统,从有呼必应、优质点播体验和海量内容等多方面打造极致的用户体验。在发布会现场,我做了一个简单的演讲。
以下是演讲实录:
刚刚上台时,我突然想起了一个场景:有一天早上醒来,女儿跟我说:爸爸我每天都跟Siri聊天。我说,Siri是谁?她说:苹果手机有一个Siri,每天我都会打开它,跟它聊两句。我说Siri多笨。她说:它虽然笨,但可以随时陪我。
当时女儿的回答,让我心里挺不好受的。创业以来,我很少有时间陪伴她。我在想,如果我作为一个产品经理,一个对技术有依赖的人,我有什么机会去做出一些产品,让你的孩子、家人,包括你自己,都能真正享受科技的乐趣?
我想,这是我当初对人工智能那么疯狂挚爱的原因之一。
因为,我在人工智能技术上看到了以前不可能突破的边界。当然,我去年也说过,愿倾家荡产做机器人和人工智能。所以,我在这个行业中花了大量时间去寻找。包括我遇上了猎户星空联合创始人贾博士。我们决定以语音和AI为切入点,重塑整个行业对产品和技术的理解。
我觉得,真正的AI不应该仅仅有技术,不应该是一个大学教授的论文,更不应该是网站上刷分的选项,而是真正能和我们生活结合起来的产品。
今天的AI,我们看到太多炫技、PPT和Demo。太多为演示而存在的产品。太多为概念而存在的公司。太多只做技术,而不知怎么把产品落地的、形形色色的创业者。我并不是批评他们。我认为这是一群对AI行业起到巨大推进作用的先驱。
在人类历史上,任何行业的崛起,历来都是——技术先导,产品跟上,商业闭环,从而形成推动人类社会一波又一波向前发展的浪潮。
做AI时,我仔细想过:我是一个非技术专业的人,本科学校大家可能也没听过,对技术的理解极其有限,我有什么机会去找到这样的一个点,让AI和产品结合起来?于是,我反过来想,也许AI今天是一门高深的技术,但它跟历史上出现的形形色色的技术是一样的。
当我们研发出来一个瓦特蒸汽机时,研发出一个汽车引擎时,我们会想,我们有一个引擎能干什么?但大家最后发现,真正当引擎技术普及化的时候,我们其实反过来要想的是——我需要造一辆车。我可以把这些技术,跟用户的需求点真正结合。
那个时候,我突然想起来,原来在技术和用户需求之间还隔着一个产品。这正是今天AI产业有机会变成一个产业的真正落地点。而不只是发布几篇论文,或做一个专题化解释。
我意识到——产品就应该是围绕细节,把技术发挥到极致,打造出感动用户的体验。这是我在这个行业里可产生的价值。
乔布斯曾经说过:做产品设计,就是要把5000个细节同时做好。他说,苹果需要技术,但苹果不是一个纯粹体验技术的公司,苹果最需要的是伟大的产品。他希望把技术发挥到淋漓尽致,最终用产品去改造大家的生活。
这是我们当时启动猎户星空这家公司,开始投入AI产品和技术时的初衷。我们坚信——要有技术上的大投入,但要真正做出让用户感动的产品,要做一家有伟大产品的公司。
一年前,我喊了一声机器人,很多人说太不靠谱了。我说,其实去火星也很远。但今天Elon Musk就在一艘一艘地发射他的火箭。尽管我们的目标是做一个能让人类从重复劳动当中解放出来,只需要关注诗和远方的机器人,但我们同样可以把这个伟大的梦想变成一个一个落地的产品,变成一个一个在人们生活中解决需求的产品。这可能是当时我们想要一起参与小雅音箱的核心原因。
虽然,我们是一家新公司,但在技术的起点上,我们一点都不低。那时候,我们想,先把一个产品落地,把整个技术和用户需求结合起来。我当时想,如果是做一款Echo产品,肯定需要先去找内容商,去了喜马拉雅才发现,他们正想做这款产品。我说,太好了,抱团取暖打天下。
因为,真正的人工智能产品,一定是技术、内容、产品、设计的跨界复合体,单靠某一块很难做出真正感动人心的产品。
就这样,我们一拍即合。
如果人工智能技术的成熟还需要五年、甚至十年的时间,那我们至少可用手上的技术,让小雅变成一个真正好用的音箱,让用户拥有从未体验过的音箱体验。当我们把这个定义点想清楚的时候,眼前豁然开朗。
我们开始围绕这个产品,不停思考,需要怎样的技术点,什么是对用户来说是最好的音箱?
好在,我们很幸运。猎户星空虽然只有一年的历史,但它有一支技术上非常牛的团队。有一批超过30个博士,上百个在行业内有五年以上工作经验的工程师。猎户最幸运的还不止是这帮工程师,或他们的博士学位、工作经验,而是他们很重视用户体验。
与此同时,我们又找到了一群特别尊重技术的产品经理。我觉得,这不是一个简单用技术来刷分或刷指标就能做出来的产品,也不是产品经理想个点子,就能让这个音箱解决所有的孤独症,关键在于——我们要把产品的定义想清楚。
所以,我们定义了三个点,叫做:有呼必应、点播体验、海量内容。
我们拿这个点和喜马拉雅碰了以后,他们特别认同。但你知道,做出这样的产品定义是不太容易的事情。因为,摆在你面前,似乎有无数种可能。如果你只想做一个炫技的Demo,可以让它在各种场合显得智能,那目标就很简单。但我觉得应该把我们的技术聚焦在用户体验。
如果用户面对一个音箱喊不响它,无论这个音箱有多么海量的内容,也不可能用它。为了有呼必应,我们投入了大量技术资源。产品和技术一起,克服了非常多看似不可能逾越的困难。今天我们的有呼必应在行业里应该可以排到第一。
也有很多人问:为什么这么短的时间,你们就能做出有特色的产品?其实不是因为我们的工程师就比大公司多,也不仅是因为我们今天有一些技术,而是我们真的专注在用户体验的痛点。
比如有呼必应。我们试用了世界上所有的智能音箱产品,基本你喊它的时候和录像里面完全两个产品。什么情况呢?就是你的嗓子经常容易喊破,还不理你,有时它可能会突然开始跟你说话或播音乐。刚才樊登说,他买了某产品,半夜突然开始给你唱歌,这个真是让你更孤独,而且还容易被吓到。
围绕这些问题,我们坚信单点极致,决定把唤醒这一个看上去非常简单的点做好。我们也没有炫技。没有把唤醒变成“小雅”两个字,而是“小雅小雅”四个字。因为我们知道,没有小雅这两个字的话,会大幅增加误唤醒,增加用户使用的不便利性。
当然了,在这里就有很多技术。比如今天在全行业能做6+1(指 6+1 环形麦克风阵列)硬件的公司可能不超过两三家。包括我们在内。我们在这点上大力投入,几乎和亚马逊Echo匹敌。我们能做到5米之外唤醒,而且比较没有压力的唤醒。你不需要大着嗓子喊,只需要一个正常的语调。
我们还做到了软件上的提升。其实我也不太懂,但我知道是一个很牛的技术,基于汉字整体建模的CNN唤醒技术,它实现的效果是什么?
第一,高清度唤醒。我们能在正常的情况下实现95%以上的唤醒,今天做不到100%,但95%,用户是可以接受的。绝大多数时候,我们给各种用户演示,包括和我们很多合作伙伴看,他们觉得唤醒特别精准。
第二,业内最低的误报。每天晚上,我们办公室都环绕着各种声音,做误唤醒报告。如果我们只是为了炫技,我们可把唤醒预期标到更高。比如98%、99%,甚至每唤必醒。但问题在于,每天就可能出现突然喊你一嗓子。所以,为了压低自己的误唤醒,就需要调整我们的唤醒,这是个矛盾,大家能理解吗?在这方面,我们投入了大量精力。不断拿着指标,跟着竞争对手一个个对比,直到我们认为超过。
此外,实现大音量下的唤醒。你开着电视的时候,人声嘈杂,我们的唤醒都能做到行业里最好的水平。就在这些看上去的很小的点上,我们投入了大量的精力。让我特别感动的是,当(小雅回复)“诶”的时候,很多人都在鼓掌,这是我们行业内第一个做到人声回应。
大家可能不知道,为什么业界首个人声唤醒这么难呢?
因为,当你说“我在”的时候,那个回音会在音腔里环绕,造成下一句话解析时出现误识别。为了要把这个误唤醒的误识别去掉,你要付出很多努力。但我们为什么做呢?除了温暖之外,还有一点,我们假设是一个原厂唤醒,在这种情况下,音箱上的光带是看不见的。如果用户喊了以后,它没有响声,用户就傻了。不知道该不该说话。这就会给用户造成局促感。
有一段时间,我们这个指标一度上不去。后来我说算了,把这个回声砍掉吧。亚马逊也没做人声回应。没有人做。因为做这个点的确还是有难度的。
我们的产品经理说,所有用户测试都对这个点非常喜欢。我们的工程师团队说,这个功能我们一定要做,付出再多努力也想把它做得足够好。
今天大家可以看到,就这么一个小的点,我们付出了很大努力。但这个小的点对用户来说非常关键。当你去喊一个人喊不醒的时候,就像永远无法叫醒一个沉睡的人。有时候我叫我们家小朋友,她不理我,我恨不得踢她一脚。大家都有这样的心理。
这是解决今天智能音箱行业和用户距离的第一道坎儿。这个坎儿非常关键。虽然看上去就是一句话,因为只有把它喊醒了,你才能够真正开始跟它沟通。
所以,这是我们做产品的一个技术和产品共同投资的极致点。
第二,点播体验足够爽。
当时我们认认真真地分析用户在怎么使用这款产品,或者怎么使用Echo。我们发现,讲再多的情感陪伴,都不能达到用户预期。但一个更好的音箱是什么呢?叫——想听什么听什么,想说什么就放什么。这需要很强大的技术攻坚。
我们跟喜马拉雅一起,把整个查询体验做了大量优化,这里面也包含了非常多的技术。
首先,我们把内容深度定制。什么意思?开始你只是放一个歌曲库的SDK,然后你接自己的SDK,每一个SDK都有自己的音乐。这时候,你点一首歌,随便在一个SDK里面下载,可能是五年前的版本,也可能下载过来的时候需要五秒钟、十秒钟。
我们没有这样做。我们是把喜马拉雅的内容和音乐曲库,以及各个合作伙伴的音乐曲库,不仅是集成在一起,还做了服务端优化。做到什么细节呢?比如说你想听一个歌曲,可能是周杰伦1999年世界巡回演唱版live版,这个标题念出来就会非常长。我们做了优化,让你听起来就是很简洁的标题截取。
再举一个例子。我们作点播指令时,比如我说“下一首”,但我们知道用户会说“再来一首”,“还有一首”、“再来一个”,我们就为这一个指令准备了上百种指令泛化。这些泛化,今天纯靠人工智能是不可能的。
大家对人工智能可能还是有误解。觉得人工智能上来,世界就和平了,其实不是的。人工智能,有多少智能,就有多少人工,核心是你要把人工花在哪儿。
我们在这样的指定词上,不是一个Demo,而是每个用户得对着手册念“上一首”、“下一首”。我们当时做的标准是要求随便找个用户,随时站在音箱前,对我们的音箱发布指令,就能被识别出来。我们为了遥遥领先竞争对手,对指定词的容忍要到90%以上,就让用户说“再来一首”、“再听一首”、“下一首”,反复说,由此来搜集了用户大量这样的需求和体验。
我们的工程师付出了巨大的努力。刚才贾磊博士在录像里说,这个也是世界首创的,叫LSTM。非常非常牛。这个核心技术的价值在于我们在中英文混排识别上达到了前所未有的成绩。
要知道,有的歌曲里有英文,你在做Demo的时候,可能永远碰不到这样的问题,但作为一个用户产品,当他喜欢英语歌曲的时候,你就没有办法使用这款产品了。此外,我们还做了口语化极致表达、点播,做了很多音频编解码,自己重新写,保证音频的上传速度。
此外,关于唤醒时间。当时亚马逊推出Echo,贝索斯说这个音箱要1.5秒唤醒。当时世界上所有的音箱,除了Echo之外,都在3秒。我说,我们也要做到1.5秒唤醒。为这个1.5秒,也是投入了巨大精力。它不仅是一个人工智能,还有各个地方都要进行优化。做到1.5秒后,用户问时就能快速反应,真正做到点得爽。
第三,我们还希望做到这个星球最温暖的AI。
为了让小雅音箱更有情感,我们做了很多工作。大家觉得只要能听懂它说什么就够了。但我觉得如果是一个陪伴孤独的产品,不能越听越孤独,我们一定要温暖。
公司团队刚刚开始创业时,和喜马拉雅一起在这方面投入了非常多的资金和人力。比如用户想播首英语歌曲,困难在于:所有中文的发音当中,中文和英文合拍念出来是很难的,为什么呢?因为往往录音的人。录中文是一批人,录英文又是一批人。两种语言结合起来,再用机器学习学出来,声音就会变得非常怪。
坦率讲,我们这个当时也没有录音。后来,我为了找到一个声色很像的英语发音人,众里寻他千百度,终于找到了一个能够和中文发音很像的女孩子,录了很多英语的音。
我们刚才说200小时,大家想一下,200小时要录多久?一个人全力以赴地录一天大概也就是2、3小时。必须60天不停,中间还没有休息。我们大概用了3个月的时间打造了这样一款音库。
这个音库不是录音,是你输入文字自动产生的效果。每句话都会有这样的情感。包括在技术实现上,我们没有选择最先进的。反而是从用户的角度出发,使用拼接技术,实现了人的标注和声音效果的结合。
这些不是炫技,而是真真切切打造用户喜欢的产品。
当然,海量的内容也是关键。今天,喜马拉雅已经成为声音平台最大的提供商。声音本身就是一个最好内容的分发体系。所以,我们配合喜马拉雅发布这款产品,给用户提供真正的知识和音乐,真正让用户在百无聊赖的时候,还能够不断听到更多的内容,这才是我们这个产品真正的价值。
未来,我们肯定会用互联网的方式不断地和喜马拉雅一起为这个小雅产品增加新的技能。这些技能会像一个长大的孩子一样,每天都在更新。除了闹钟、天气的技能,我们马上会发布一款技能。比如有的人听到雨声才能入睡,类似这样一些背景声技能的发布,能够让小雅真的不断让用户感知到小雅的陪伴。
除了产品上想清楚用户需要的是什么,我们在整个语音体系上也投入了差不多100个工程师。全力以赴。因为今天这个产业不成熟,只能靠自己从前端的麦克风阵列到语音识别,再到后端的一些语义理解,都全部做起来了。
我认为,真正能够让AI真正普及最重要的一点,就是让用户用到一个以AI为功能的产品,并形成一种爆款。为了这个爆款,我们不怕辛苦,自己研发,一点一滴,把这个系统打造出来。这些技术以及我们对产品的理解,最终形成猎户星空的整个技术链条。
回想当初,我为什么选猎户星空作为这家公司的名字呢?因为,它是我在星空中唯一认识的星座,它也是在星空上非常明亮的星座。
我相信,每一个做AI产品的公司,不管我刚才讲了再多同行做得好或者不好的地方,其实都有一个星辰大海的梦想。我们愿意脚踏实地为用户打造一款又一款感动人心的产品。
以下小雅功能演示视频仅供参考:)
https://v.qq.com/txp/iframe/player.html?vid=d0515ne3v71&width=500&height=375&auto=0